智能论文笔记

我们考虑一个多武装的强盗设置，在每一轮的开始时，学习者接收嘈杂的独立，并且可能偏见，\ emph {评估}每个臂的真正奖励，它选择$ k $武器的目标累积尽可能多的奖励超过$ $ rounds。在假设每轮在每个臂的真正奖励从固定分发中汲取的，我们得出了不同的算法方法和理论保证，具体取决于评估的生成方式。首先，在观察功能是真正奖励的遗传化线性函数时，我们在一般情况下展示$ \ widetilde {o}（t ^ {2/3}）$后悔。另一方面，当观察功能是真正奖励的嘈杂线性函数时，我们就可以派生改进的$ \ widetilde {o}（\ sqrt {t}）$后悔。最后，我们报告了一个实证验证，确认我们的理论发现，与替代方法进行了彻底的比较，并进一步支持在实践中实现这一环境的兴趣。

translated by 谷歌翻译

A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit

Priyank Agrawal , Theja Tulabandhula , Vashist Avadhanula

分类：机器学习 | (统计)机器学习

2020-11-28

在本文中，我们考虑了MNL-Bandit问题的上下文变体。更具体地说，我们考虑了一个动态设置优化问题，决策者为消费者提供了一系列产品（各种产品），并在每回合中观察他们的响应。消费者购买产品以最大化其实用性。我们假设一组属性描述了产品，并且产品的平均效用在这些属性的值中是线性的。我们使用广泛使用的多项式logit（MNL）模型对消费者选择行为进行建模，并考虑动态学习模型参数的决策者问题，同时优化累计收入，超过销售范围$ t $。尽管最近这个问题引起了人们的关注，但许多现有方法通常涉及解决棘手的非凸优化问题。他们的理论绩效保证取决于问题依赖性参数，该参数可能非常大。特别是，此问题的现有算法对$ o（\ sqrt {\ kappa d t}）$界后后悔，其中$ \ kappa $是问题依赖性常数，可以对属性的数量具有指数依赖性。在本文中，我们提出了一种乐观的算法，并表明遗憾是由$ o（\ sqrt {dt} + \ kappa）$界定的，从而大大提高了现有方法的性能。此外，我们提出了对优化步骤的放松，该步骤允许进行可牵引的决策，同时保留有利的遗憾保证。

translated by 谷歌翻译